The strong few-shot in-context learning capability of large pre-trained language models (PLMs) such as GPT-3 is highly appealing for application domains such as biomedicine, which feature high and diverse demands of language technologies but also high data annotation costs. In this paper, we present the first systematic and comprehensive study to compare the few-shot performance of GPT-3 in-context learning with fine-tuning smaller (i.e., BERT-sized) PLMs on two highly representative biomedical information extraction tasks, named entity recognition and relation extraction. We follow the true few-shot setting to avoid overestimating models' few-shot performance by model selection over a large validation set. We also optimize GPT-3's performance with known techniques such as contextual calibration and dynamic in-context example retrieval. However, our results show that GPT-3 still significantly underperforms compared to simply fine-tuning a smaller PLM. In addition, GPT-3 in-context learning also yields smaller gains in accuracy when more training data becomes available. Our in-depth analyses further reveal issues of the in-context learning setting that may be detrimental to information extraction tasks in general. Given the high cost of experimenting with GPT-3, we hope our study provides guidance for biomedical researchers and practitioners towards more promising directions such as fine-tuning small PLMs.
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
嗜睡是驾驶员和交通事故主要原因之一的主要关注点。认知神经科学和计算机科学的进步已通过使用脑部计算机界面(BCIS)和机器学习(ML)来检测驾驶员的嗜睡。然而,几个挑战仍然开放,应该面对。首先,文献中缺少使用一组ML算法的多种ML算法对嗜睡检测性能的全面评估。最后,需要研究适合受试者组的可扩展ML模型的检测性能,并将其与文献中提出的单个模型进行比较。为了改善这些局限性,这项工作提出了一个智能框架,该框架采用了BCIS和基于脑电图(EEG)的功能,以检测驾驶场景中的嗜睡。 SEED-VIG数据集用于喂食不同的ML回归器和三类分类器,然后评估,分析和比较单个受试者和组的表现最佳模型。有关单个模型的更多详细信息,随机森林(RF)获得了78%的F1分数,改善了通过文献中使用的模型(例如支持向量机(SVM))获得的58%。关于可扩展模型,RF达到了79%的F1得分,证明了这些方法的有效性。所学的经验教训可以总结如下:i)不仅SVM,而且文献中未充分探索的其他模型与嗜睡检测有关,ii)ii)适用于受试者组的可伸缩方法也有效地检测嗜睡,即使新受试者也是如此评估模型培训中未包括的。
translated by 谷歌翻译
交通事故是年轻人死亡的主要原因,这一问题今天占了大量受害者。已经提出了几种技术来预防事故,是脑部计算机界面(BCIS)最有前途的技术之一。在这种情况下,BCI被用来检测情绪状态,集中问题或压力很大的情况,这可能在道路上起着基本作用,因为它们与驾驶员的决定直接相关。但是,在驾驶场景中,没有广泛的文献应用BCI来检测受试者的情绪。在这种情况下,需要解决一些挑战,例如(i)执行驾驶任务对情绪检测的影响以及(ii)在驾驶场景中哪些情绪更可检测到的情绪。为了改善这些挑战,这项工作提出了一个框架,该框架着重于使用机器学习和深度学习算法的脑电图检测情绪。此外,已经设计了两个场景的用例。第一种情况是聆听声音作为要执行的主要任务,而在第二种情况下,聆听声音成为次要任务,这是使用驱动模拟器的主要任务。这样,它旨在证明BCI在这种驾驶方案中是否有用。结果改善了文献中现有的结果,可在发现两种情绪(非刺激性和愤怒)中达到99%的准确性,三种情绪(非刺激性,愤怒和中立)的93%,四种情绪(非刺激)(非 - 刺激,愤怒,中立和喜悦)。
translated by 谷歌翻译
机器人系统的长期自主权隐含地需要可靠的平台,这些平台能够自然处理硬件和软件故障,行为问题或缺乏知识。基于模型的可靠平台还需要在系统开发过程中应用严格的方法,包括使用正确的构造技术来实现机器人行为。随着机器人的自治水平的提高,提供系统可靠性的提供成本也会增加。我们认为,自主机器人的可靠性可靠性可以从几种认知功能,知识处理,推理和元评估的正式模型中受益。在这里,我们为自动机器人代理的认知体系结构的生成模型提出了案例,该模型订阅了基于模型的工程和可靠性,自主计算和知识支持机器人技术的原则。
translated by 谷歌翻译
产品匹配是全球对电子商务消费者行为的理解的基本步骤。实际上,产品匹配是指确定来自不同数据源(例如零售商)是否提供两个产品的任务。标准管道使用以前的阶段,称为阻止,其中给定产品提供了一组潜在的匹配候选者,以相似的特征(例如相同的品牌,类别,风味等)检索。从这些类似的候选产品中,那些不匹配的产品可以被视为艰难的负面因素。我们提出了Block-SCL,该策略使用阻止输出来充分利用监督的对比度学习(SCL)。具体而言,块-SCL使用在阻塞阶段获得的硬性样本来构建丰富的批处理。这些批次提供了一个强大的训练信号,导致该模型了解产品匹配的更有意义的句子嵌入。几个公共数据集中的实验结果表明,尽管仅将短产品标题作为输入,没有数据增强和更轻的变压器主链比竞争方法,但Block-SCL仍取得了最新的结果。
translated by 谷歌翻译
本文介绍了广义计划(GP)问题及其解决方案的新颖代表,作为C ++程序。我们的C ++表示允许正式证明广义计划的终止,并指定其渐近复杂性W.R.T.世界对象的数量。表征C ++广义计划的复杂性,可以应用组合搜索,该搜索以复杂性顺序列举了可能的GP解决方案的空间。实验结果表明,我们称之为BFGP ++的实施,我们的实施优于先前的GP作为启发式搜索方法,用于计算以编译器式程序为代表的通用计划。最后但并非最不重要的一点是,在经典计划实例上执行C ++程序是一个无确定性的无基接地过程,因此我们的C ++表示允许我们自动在数千个对象的大型测试实例上自动验证计算的解决方案,其中有数千个对象,其中现成的古典规划人员会陷入预处理或搜索中。
translated by 谷歌翻译
自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是,当前的度量使用通常是不明智的,并且不能反映基本的域名。在这里,我们提出了一个全面的框架,该框架指导研究人员以问题意识的方式选择绩效指标。具体而言,我们专注于生物医学图像分析问题,这些问题可以解释为图像,对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ,数据集和算法与输出问题相关的属性的属性与问题指纹相关,同时还将其映射到适当的问题类别,即图像级分类,语义分段,实例,实例细分或对象检测。然后,它指导用户选择和应用一组适当的验证指标的过程,同时使他们意识到与个人选择相关的潜在陷阱。在本文中,我们描述了指标重新加载推荐框架的当前状态,目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的,将在社区驱动的优化之后公开作为用户友好的工具包提供。
translated by 谷歌翻译
Infomap是一种流行的方法,用于检测网络中节点的密度连接的“社区”。要检测此类社区,它建立在标准类型的马尔可夫链和信息理论中的想法。通过在网络上传播的疾病动态的动机,其节点可能具有异质疾病脱模速率,我们将Infomap扩展到吸收随机散步。为此,我们使用吸收缩放的图形,其中边缘权重根据吸收率缩放,以及马尔可夫时间扫描。我们的Infomap的一个扩展之一会聚到Infomap的标准版本,其中吸收率接近$ 0 $。我们发现,使用我们的Infomap扩展检测的社区结构可以从社区结构中显着不同,即一个使用不考虑节点吸收率的方法检测。此外,我们表明,局部动态引起的社区结构可以对环形格网络上的敏感感染恢复(SIR)动力学产生重要意义。例如,我们发现在适度数量的节点具有大的节点吸收率时,爆发持续时间最大化的情况。我们还使用我们的Infomap扩展来研究性接触网络中的社区结构。我们认为社区结构,与网络中无家可归者的不同吸收率相对应,以及对网络上的梅毒动力学的相关影响。我们观察到,当无家可归者人口中的治疗率低于其他人群时,当治疗率较低时,最终爆发规模可能会比其他人口相同。
translated by 谷歌翻译
基因表达数据集通常具有高维度,因此需要有效且有效的方法来识别其属性的相对重要性。由于可能的解决方案的搜索空间的大小,属性子集评估特征选择方法往往不适用,因此在这些方案中使用特征对方法。文献中描述的大多数特征排名方法是单变量的方法,因此它们不会检测因子之间的相互作用。在本文中,我们提出了基于成对相关性和成对一致性的两种新的多变量特征排名方法,我们应用于三种基因表达分类问题。我们在统计上证明所提出的方法优于现有技术的状态,特征对方法进行分类方法聚类变化,CHI平方,相关性,信息增益,相关性和意义,以及基于与多目标的相关性和一致性的属性子集评估的特征选择方法进化搜索策略。
translated by 谷歌翻译